查看原文
其他

海内外博主发声抵制!为了训练AI,“版权卫士”Adobe陷入舆论漩涡

石濑 AI新榜
2024-09-24


作者 | 石濑‍‍‍‍‍‍‍‍

编辑 | 张洁


*今日头图:《The Social Dilemma》纪录片海报截图


为了训练AI模型,没想到浓眉大眼的“版权卫士”Adobe也叛变了。

今年2月,Adobe悄悄更新了产品服务条款。其中一条款要求用户同意Adobe可以“通过自动和手动的方式”访问用户作品,包括受保密协议(NDA)保护的内容,并使用“机器学习等技术来改进Adobe的服务和软件”

如果用户拒绝接受新条款,则无法正常使用Adobe的软件。


这一条款调整近期遭到曝光,引发了创意人士、数字艺术家和设计师等Adobe主力用户发文抵制。他们认为该条款实质上是一种强制授权,无异于“霸王条款”,目的是训练Adobe旗下的生成式AI模型“Firefly”

X博主“Sam Santala”在6月初发布的一条质疑该条款的推文,目前浏览量已达千万。


许多用户在社交媒体上表示,出于对隐私和版权的担忧,他们选择停止使用Adobe的产品


无独有偶,Meta公司也采取了类似的措施。随着Meta的生成式AI功能在欧洲上线,其隐私政策更新为:“在Meta产品和服务上共享的信息”,包括“帖子、照片乃至标题等内容”将被用于训练AI 

如果用户不同意新的隐私政策,应考虑停止使用Meta旗下的社交媒体产品,如Facebook和Instagram。


随着AI技术迅猛发展,各大科技公司与用户之间围绕数据隐私、内容所有权和控制权的争夺愈发激烈。


从生产力工具到社交媒体,你的数据正在被无偿“投喂”给AI


“我们只用授权内容来训练AI

“顺便说一句,由于你正在使用我们的服务,因此我们拥有你的内容授权。”



针对Adobe引发争议的产品服务条款,一位网友指出,这位创意软件巨头在处理用户内容用于AI训练方面的前后态度并不一致


Adobe生成式AI模型“Firefly”于2023年3月发布测试版,声称其训练数据来源于Adobe图像库中的数亿张图像、一些公开许可的图像及版权保护已过期的公开图像


其他的AI图像生成工具,如Stability AI的Stable Diffusion、OpenAI的Dall-E2、Midjourney的Midjourney,都曾因版权问题而备受争议。


Adobe在这一背景下采取了差异化的市场定位——成为AI军备竞赛中的“白衣骑士”,强调其模型训练数据的合法性,并承诺对使用Adobe Firefly生成的图片引发的版权纠纷支付索赔


资深设计师阿杰戏称自己是“Adobe正版受害者”,认为Adobe利用其庞大的创意生态系统来训练AI,虽然是一个聪明的商业策略,但对用户来说,中间涉及的平台-创作者利益分配和用户知情权是缺失的,这让“老用户非常受伤”,也破坏平台与用户之间的信任。


与此同时,海外屡屡曝出与Adobe有关的版权纠纷,更让用户对Adobe是否真的尊重创作者版权打上了问号


艺术家Brian Kesinger发现,在未经他同意的情况下,Adobe图像库中出现了打着他名义贩卖的与其作品风格相似的AI生成图像。




摄影师安塞尔·亚当斯的遗产管理方公开指责Adobe,称其涉嫌出售已故摄影师作品的生成式人工智能仿制品。



在舆论压力下,Adobe于6月19日修订了服务条款,明确表示不会使用用户存储在本地或云端的内容来训练AI模型



但这一澄清并未完全平息创作者的担忧。海外AI圈知名博主“Bilawal Sidhu”指出,Adobe的修订版服务条款仍允许使用用户私有云数据训练非生成式AI工具的机器学习模型


尽管用户可以选择退出“内容分析”,但复杂的取消操作常常让不少用户望而却步。Adobe提供的退出“内容分析”机制之繁琐,从一些创作者在Youtube上推出的相关教学视频,可见一斑。



此外,不同国家和地区对用户数据保护的法规存在差异,这影响了社交媒体平台在制定用户服务条款时的策略。


据国外科技媒体Mashable报道,在通用数据保护条例(GDPR)的框架下,英国和欧盟的用户享有“反对权”,他们可以明确选择不将其个人数据用于训练Meta公司的人工智能模型。


而美国用户未获得同等的知情权。根据Meta现有的数据共享政策,美国用户在Meta旗下社交媒体产品上发布的内容,可能在未经明确同意的情况下已经被用于训练AI。



AIGC时代,科技公司如何“获取”创作者数据?


数据被喻为AI时代的“新石油”。但资源的“开采”,目前仍有不少灰色地带。


月之暗面创始人杨植麟近期在北京智源大会上表示,模型的“大”依然是第一性原理,现在最大的问题是解决怎么取得原本稀缺或者不存在的数据,以及如何高效地形成规模效应。


数据短缺,正成为AI大模型竞赛中的一个关键问题。据早前《纽约时报》报道,OpenAI使用语音转录工具Whisper收集了超过100万小时的YouTube视频文本作为GPT-4的训练数据


OpenAI对Scaling Law(规模定律)的极致应用被一些业内人士形象地称为“暴力美学”,在灰色地带抓取数据训练模型,以获取相对于谷歌、Meta等科技巨头的竞争优势


Scaling Law拥护者相信,当视频模型足够“大”,就会产生智能涌现的能力。


不止OpenAI,如今很多需要“炼模型”的科技大厂、头部互联网平台对用户数据的采集也处在模糊地带。


在国内,随着《互联网信息服务深度综合管理规定》和《生成式人工智能服务管理暂行办法》相继出台,对AI生成内容的监管日益严格。


其中《生成式人工智能服务管理暂行办法》规定生成式人工智能服务提供者在使用用户数据进行训练时,必须遵守合法来源、知识产权保护、个人信息同意等原则。


然而,在实际操作中,用户往往在不知情的情况下同意平台使用其数据。例如,绘画博主“雪鱼”发现自己的作品在未经允许的情况下,被AI绘画应用“Trik”拿来进行模型训练,一怒之下,该博主选择了停更。



近期我们整理了海内外主流社交媒体平台的用户服务协议条款,发现多家平台的协议中都要求用户授权平台广泛的内容使用权,包括存储、使用、传播、复制以及“制作派生作品”等。这些也都存在一定的模糊地带。



马斯克掌管的X(前推特)直接在用户服务条款中明确写道:可能会使用收集的信息和公开可用的信息来帮助训练其机器学习或人工智能模型


唯一不同的是微信视频号,明确表示用户使用视频号过程中上传、发布的全部内容,均不会因为上传、发布行为发生知识产权、肖像权等权利的转移。仅在出于宣传或介绍功能等目的时,以一定的方式在腾讯集团相关产品或外部渠道推广用户内容或素材。



澎湃研究所指出,用户服务条款中包含的“制作派生作品”这一提法,让平台轻易就获得了用户的提前授权,可以免费将用户上传和发布的内容用于训练AIGC模型。


这种做法虽然通过一套严密的“话术”获得大量用户数据,节约了模型训练成本,但同时也引发了用户个人信息权利的双重困境:数字版权归属和数据隐私问题,严重损害用户对平台的信任。


目前平台在确保生成式AI不侵犯创作者权益方面尚存在较大不足,也缺乏足够监管。


此外,科技公司获取用户数据的另一种途径是:注册使用AI产品时,用户同意的用户使用须知或用户服务条款。


例如,快手AI视频模型“可灵”在内测阶段的用户须知中明确表示,用户上传的素材(如有)、输入的指令以及模型生成的内容可能会继续用于大模型优化训练,以不断调整优化模型的效果。



如果用户不同意该条款,则无法使用相关产品和服务。尤其在生成式AI中的图生视频、图生图等使用场景中,输入即是输出内容的一部分。由于AIGC模型算法和运行过程依然存在“黑箱”特性,不仅开发者难以向用户充分解释数据处理的过程,也在监管和治理层面带来了挑战


据君合律师事务所北京办公室合伙人董潇律师解读,《生成式人工智能服务管理暂行办法》第7条要求生成式人工智能研发利用者对预训练、优化训练数据来源的合法性负责,但对于生成式人工智能研发利用者对用于训练算法的数据来源的审核义务究竟应达到何种程度未作出明确规定


如何平衡科技创新与用户隐私安全,保障创作者权益,仍待行业进一步发展和法律监管措施持续完善。


在此背景下,一些开发者和创作者已经采取行动,推出了一系列“反AI”工具。从作品保护工具Glaze到AI数据投毒工具Nightshade,再到反AI社区Cara走红,面对科技公司未经用户/创作者同意便抓取相关数据训练AI模型,人们的怒火已经愈演愈烈。

直播预告


明晚18点,来抖音号“头号AI玩家”直播间

一起玩转AI视频生成神器“Dream Machine”!




「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看
 一起研究AI
继续滑动看下一个
AI新榜
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存